Data Fabric(数据编织),自 2019 年开始就在 Gartner 年度技术趋势榜单上安家,并在 2022 年被列为数据分析领域十大技术趋势之首,它究竟有哪些价值?又如何在企业落地? 在近日举办的全球软件开发大会 QCon 广州站上,网易数帆大数据产品技术负责人郭忆做了题为《基于 Data
Fabric 的逻辑数据湖架构实践》的分享,介绍了 Data Fabric 的最新实践。
Data Fabric:好处与误区
Data Fabric,Gartner 将其定义为一种设计理念——构建一个数据和连接过程的集成层(Fabric),以支持数据系统跨平台的设计、部署和使用,实现灵活的数据交付。网易数帆在Data Fabric方向上,进行了落地实践,我们将其称之为逻辑数据湖,网易数帆认为,这个集成层就是跨平台的逻辑模型,我们认为通过逻辑模型,可以帮助业务人员屏蔽底层复杂的数据架构,业务人员在逻辑模型层之上,只需要选择数据集合,即可达到开箱即用的目的。从结果来看,无论数据存储在何处,这种架构模式都可以帮助企业低成本、及时地获得正确的数据,并且实现数据端到端的治理。郭忆总结了 Data Fabric 的两大关键词:逻辑统一、物理分散——这也是网易数帆逻辑数据湖实践的指导思想。 Data Fabric 的好处显而易见。郭忆介绍道,首先,它可以帮助我们节省 70% 的工作量,包括在数据发现、数据分析以及数据开发工作;其次,可以帮助我们的业务人员更快速的使用数据进行商业分析,不需要所有的数据只有入湖才能进行分析;再次,它在业务人员和数据团队之间构建了一个统一的界面,也就是逻辑模型层,让数据团队和业务团队之间的协作更加高效;此外,它支持业务人员可以自助完成数据的消费,使得数据使用的范围大幅度扩大。 实现这些效果,Data Fabric 自然需要一系列完善的核心能力,贯穿数据源到数据消费。
有了真香的 Data Fabric,是否意味着企业之前耗费大量精力与资源建设的数据湖、数据仓库就没用了?并非如此! 结合网易数帆的实践经验,郭忆给出了4点提醒:首先,Data Fabric 并不是真的要去湖或者去仓,而是构建一个去中心化的数据访问层,湖或者仓可以作为其中的一个数据源存在。其次,在数据量大的情况下,Data Fabric 会有性能问题,我们可以按需将数据固化到湖或者仓中,Data
Fabric 并不是一定要直接去访问数据源。再次,Data Fabric 只是提供了一种更丰富的数据访问界面,既可以直接去访问数据源,也可以通过固化的方式,提供更加高效的访问。还有很重要的一点,Data Fabric 并不是要去除 ETL,恰恰相反,DataOps 和数据治理是 Data Fabric 基础。
网易数帆逻辑数据湖:元数据管理是关键
逻辑数据湖是网易数帆落地 Data Fabric 的技术方案。驱动网易数帆研发逻辑数据湖的因素,是支撑网易业务时面临的复杂数据架构、数据分析效率问题、数据部门成为瓶颈以及资源利旧的问题。郭忆分享了网易数帆的逻辑数据湖架构,包括数据源管理、数据目录、元数据管理、DataOps 全生命周期开发、数据模型层、物化视图等重要模块,覆盖数据的管、算、用。